表征科学技术发展过程中的知识载体有多种形式, 其中包括期刊论文、研究报告、科研规划、摘要、索引、产品资料等, 它们蕴含着大量的揭示科技发展演化过程和发展水平的技术主题信息, 其最初的表现形式就是技术关键词, 因此, 根据科技文献所表达的内容进行表征主题特征的关键词抽取是科技情报研究的主要内容之一。
技术路线图在表达和反映科研技术发展重点或方向方面具有超前性, 其内容可以确定技术领域及其发展的大体方向, 并能预见技术未来的发展趋向。对这样一类文档进行情报分析研究的基础是获得其文本中所包含的表征技术领域、未来技术主题特征的关键词, 同时, 技术路线图中的表征主题特征的关键词自动抽取是面向未来的技术分析研究中的一项重要的基础研究工作。因此本文在结合技术路线图文本结构的基础上, 提出一种基于
词汇链的关键词自动抽取方法, 通过词汇链的构建揭示技术领域及其未来技术发展方向。
关键词自动提取在文本挖掘领域被称为主题词抽取(Term Extraction), 主题词抽取主要指通过扫描文本来获得其中所包含的主题单元, 它能丰富领域主题词库[1], 并为知识抽取、文本挖掘、链接分析等提供结构化知识单元, 实现领域新兴研究探测等[2]; 在计算语言学领域, 关键词抽取的工作重点是术语自动识别(Term Recognition), 术语识别可以从文本中自动发现领域术语[3], 获取领域术语表中未登录的规范化词汇, 丰富术语表或术语库的内容; 在信息检索领域, 关键词抽取是指自动标引(Automatic Indexing), 自动标引利用计算机处理技术从拟存储、检索的事实情报或文献(题目、文摘、正文)中抽取检索标志[4]。近年来, 国内外对基于词汇链的关键词抽取方法进行了广泛而深入的研究。词汇链(Lexical Chains)是指围绕一个主题的一系列相关的词共同组成的词汇集合, 这些词语之间存在一定的语义相关性, 因此词汇链其实就是文档中词语间语义关系的外在表现, 在一定程度上反映出文本结构和主题信息。Halliday等[5]最早提出词汇链, 用来表示将文本中相关的词构成一个词语链的过程。构建词汇链的方法有很多, Morris等[6]提出一种贪婪算法以构建词汇链, Silber等[7]和Galley等[8]也分别提出有效的构建词汇链的方法。
在词汇链构建过程中, 词汇间的语义相关度计算是重要的研究内容。Ercan等[9]基于WordNet中的语义关系定义词汇间的语义关系, 以完成关键词的抽取。目前, 国内的研究者在确定构建词汇链的语义关系时, 大多是以《知网》作为语义获取的语义词典[10, 11, 12, 13], 裘江南等[14]主要以《同义词词林》语义词典作为词汇间语义关系的计算指标。
技术路线图的文本结构特征明显, 具有明显的章节编号。章节标题一般都表示为技术领域的主题, 而主题的论述往往集中在文本的几个段落中, 因此本文结合技术路线图的文本结构特征, 提出一种基于词汇链的关键词自动抽取方法, 通过词汇链的构建和关键词的抽取揭示技术领域及其未来技术发展方向, 其创新点主要体现在三个方面:关键词的语义相关度计算相对独立, 不依赖于任何词表或词典; 基于共词分析的改进等价指数能较好地适用于技术路线图分析; 以词汇链的方式表达与某一特定技术领域相关的技术主题特征。
N-Gram是一种常用的语言模型, 又称为N元语言模型[15]。本文使用该模型将生成大量的N-Gram数据项, 在实际应用中, 只考虑0个、1个、2个或3个历史信息, 形成1-Gram、2-Gram、3-Gram和4-Gram数据项。但是这些数据项并不都是关键词, 其中包含大量的噪声数据, 因此定义两个指标用于初始词集的筛选。
(1)频度NF(t)
N-Gram数据项的频度指的是数据项t在段落p中出现的次数, 其计算公式如下:
NF(t)=∑ Gni=1(wi=t) (1)
其中, Gn是段落p中N-Gram数据项的总数, wi是段落p中的第i个N-Gram数据项。
(2)聚合度NC(t)
N-Gram数据项的聚合度指的是包含数据项t的段落总数, 其计算公式如下:
NC(t)=∑ Pni=1φ i (2).
其中, Pn是段落总数。
φ i=1段落pi中包含数据项t
0段落pi中不包含数据项t
根据以上两项指标可以看出, 当一个N-Gram数据项t的频度越大、聚合度越高, 就越有可能成为一个关键词。
关键词一般是指在一个领域中经常使用的、形式较为固定、表达某个特定概念的词语。汉语中的关键词是由一个或多个字组成, 英语中的关键词是由一个或多个单词组成。关键词符合计算语言学领域的术语特征, 因此本文中的关键词识别可以借用术语所具有的结构特点, 如边界特点、长度特点以及词性特点。C-value系列方法的出现推进了学科领域术语自动识别技术的发展, C-value 是一种领域独立的多词术语识别方法, 其综合了语言学和统计的信息[16]。它是针对术语词频计算的一种改进, 可增进嵌套多词术语的识别, 排除一些非术语的词汇。本文采用C-value方法对经过初步筛选后的初始词汇集进行计算, 根据关键词的特征对初始词汇集中的每个词汇进行C-value值的计算, 以该值的大小作为关键词识别的依据。同时, 本文也采用文献[16]中定义的名词短语特性, 结合C-value值筛选出符合名词短语特征的关键词。
构建词汇链的初始值是由技术路线图中的章节标题内容确定的, 从应用的角度来看, 该初始值被称为领域关键词, 它标志着技术路线图中的某个技术研究领域, 从文本中抽取领域所包含的所有技术词汇被称为候选关键词。这些候选关键词和领域关键词之间关联的紧密程度由它们之间的语义关联度确定。当一个候选关键词与领域关键词之间的关联度高时, 该候选关键词将更可能表征该领域的核心主题, 因此, 词汇间的语义关联度计算是词汇链构建的基础。
本文研究的应用场景虽然和裘江南等[14]的研究很相似, 但是在语义相关度计算方面与其截然不同。在定义词汇间的语义关联度时没有参考任何的词典和词表, 主要是基于共词分析方法计算候选关键词与领域关键词在文本同段中的语义共现关系, 段落本身的语义信息对词汇间关联强度有较大的影响。同时, 候选关键词和领域关键词在全文中的词频也影响词汇间的语义关联强度, 因此定义了一种基于同段共现分析的关联度计算指标, 即改进的等价指数(Equivalence Coefficient), 简称为E指数。
等价指数是共词分析方法中的一项重要的统计指标。共词分析指的是两个词共同出现(共现)在同一窗口单元, 如一定词语间隔、一句话、一个段落、一篇文档等。两个词汇共现的频次与其在语义上的关联性成正比, 共现频次越高, 其相互间的关联越紧密。共现分析的主要目标是通过统计词汇在文献中分布的特征来获取对词汇语义的认识。Callon等[17]探索以聚合物化学为例的基础研究和技术研究之间交互关系时, 提出等价指数(Equivalence Index), 该指数用来计算两个词汇之间通过共现关系所确定的关联强度, 其中共现单元为整个文献。该指标提出后得到研究人员的广泛应用, 它在揭示词汇对间的共现语义关联强度方面起到很大的作用。
由于本文的研究对象是技术路线图这类单篇文档, 传统的共现单元无法在此得到应用, 因此提出以文本中包含的每个段落作为词共现的单元, 在计算候选关键词和领域关键词之间的关联强度时不仅要考虑两者在同段内的共现频次, 更要考虑词汇本身在全文中的频次或段内的频次。定义E指数的目的是计算领域关键词和候选关键词之间的关联程度, 当确定一个领域关键词i后, 候选关键词j与它的关联程度由它们之间的E指数确定, E指数计算方法如下:
Eij = CijCi· CijCj = Cij2CiCj (3).
其中, Eij为领域关键词i和候选关键词j之间关联强度的权重, Cij是候选关键词j在领域关键词i所在段落中出现的次数, Ci是领域关键词i在全文中出现的频次, Cj是候选关键词j在全文中出现的频次。E指数可以反映词汇对中每一个出现在对方集合的频次, 因此具有包容性。E值越大, 表明两个词汇共同出现的次数占其各自出现总次数的比例越大, 其联系就可能越密切, 这样可以很好地保留与领域关键词联系紧密的低频词。
统计频度-逆文档频度(TF-IDF)是用于词语-文档矩阵中词语权重表示的常用方式, 同时也作为一项重要的相似度计算指标[18, 19]。为了研究结果的可比性, 本文定义TF-IDF用于计算候选关键词和领域关键词间的语义相关度, 具体定义如下:
w(tj, pi)=tf(tj, pi)× logNiNi(tj) (4).
其中, tj是候选关键词, pi是领域关键词i所在文档段落, w(tj, pi)为候选关键词tj在领域关键词i所在文档段落pi中的权重, tf(tj, pi)是tj在pi中的频次, Ni为领域关键词在文档中出现的段落总数, Ni(tj)是tj出现在pi中的段落总数。
本文构建的词汇链是由领域关键词和与领域关键词之间存在一定语义关联度的若干个候选关键词集合组成, 每个词汇都是一个结构体, 除了本身的词汇信息外还包括段落编号、句子编号、C-value值、E值等特征值, 每个词汇在词汇链中的位置是其在文档中位置的体现。词汇链的初始值是领域关键词, 因此关键词抽取其实就是选择词汇链中与领域关键词语义关联度高的候选关键词, 这些候选关键词形成技术领域的技术主题特征, 因此, 基于所定义的词汇链特征和结构, 本文定义的基于词汇链的关键词抽取方法主要包括词汇链构建和关键词抽取两个部分, 其中词汇链构建算法如下:.
输入:分析文本.
输出:词汇链集.
步骤如下:.
①对分析文本全文以段落为单位进行N-Gram切分, 使用Stanford Parser工具包对切分结果进行词性分析, 以频度和聚合度进行初步的筛选, 形成初始词集。
②计算初始词集中所有词语的C-value值, 满足阈值的词语构成词汇链的候选关键词集W={ w1, w2, … , wn} 。
③提取技术路线图的章节标题内容, 进一步形成领域关键词集F={ f1, f2, … , fm} , 其中fj代表一个特定的技术领域, j=1; j≤ m; 选择fj作为词汇链的初始词。
循环.
④i=1; i≤ n; 计算候选关键词wi与fj的E值。
⑤i+ + , 继续执行步骤④, 直至W遍历结束。
⑥j+ + , 继续执行步骤③, 直至F遍历结束。
⑦完成所有词汇链的构建。
对于一个特定的技术领域, 可能存在多条词汇链揭示文本不同位置对该技术领域内容和特征的阐述。由于技术路线图文本结构的特点, 采用筛选的机制选择目标对象链, 因此在形成词汇链的基础上, 关键词抽取算法如下:.
输入:词汇链集合LS={ L1, L2, … , Ls} , 其中Lk是某一技术领域的词汇链集合, Lk={ l1, l2, … , lt} .
输出:技术领域的核心技术关键词集.
步骤如下:.
①1≤ k≤ s, 以Lk作为某一技术领域待分析词汇链集合.
循环.
②1≤ i≤ t, 以li中包含的候选关键词内容和领域的相关性及其与领域关键词的E值结果为依据, 进行对象链选择。
③将对象链li中包含的候选关键词按照其与领域关键词间的E值进行降序排列。
④依次从排序后的对象链中选择满足阈值的候选关键词作为核心技术关键词, 直至关键词的数目达到预定的个数。
⑤k+ + , 继续执行步骤①, 直至LS遍历结束。
⑥完成关键词抽取。
本文将最终抽取的结果定义为该技术领域所包含的核心技术关键词, 由它们来表征该技术领域未来技术的主题特征。
使用Java和SQL Server 2005设计测试系统, 实现基于词汇链的关键词抽取方法, 为进一步验证基于E指数指标构建的词汇链在关键词抽取中的有效性, 将抽取结果与以本文定义的TF-IDF统计指标方法进行关键词抽取的结果进行对比。
以美国NASA的“ Draft Nanotechnology Roadmap” (纳米技术路线图)[20]作为数据源, 以其为本文研究方法的实证对象, 并选取该文档中的“ Lightweight Material” (轻质材料)技术领域作为实证对象, 对其进行词汇链的构建, 以完成文档的核心技术关键词抽取。
单壁碳纳米管(Single Wall Carbon Nanotube, SWNT)是纳米轻质材料发展的终极目标, 与传统碳纤维增强复合材料(Carbon Fiber Reinforced Composites, CFRP)的测量特性和各种航空材料对比, 它的强度系数(Tensile Strength)和刚度(Strength Stiffness)有新的发展标准。虽然开发连续单壁碳纳米管纤维的终极目标还有待实现, 但大量的研究已经集中到开发碳纳米管纤维上, 并成功研发出干法和湿法纺丝技术来生产这些纤维[20]。
选择领域关键词“ Lightweight Material” 作为词汇链的初始词, 对该技术路线图进行全文统计分析, 共获得该领域的三个词汇链。根据该技术路线图的文本结构特点, 需要在这三个词汇链中筛选出目标词汇链作为关键词抽取的对象链, 确定目标词汇链是进一步研究的基础。因此, 本文对这三个词汇链分别进行E指数的均值和均方差的数学统计, 得到分析数据如表1所示:
将词汇链2中包含的所有候选关键词以其与“ Lightweight Material” 的E值降序排列, 完成关键词抽取。在构建词汇链2时, 主要以E指数作为统计指标。为了验证该方法的有效性, 同时使用本文所定义的TF-IDF统计指标进行核心技术关键词的抽取, 确定每种指标抽取的关键词个数相同, 得到抽取结果对比如表2所示:
(2)对本文使用的技术路线图内容分析可知, 中等模量碳纤维是碳纤维性能提高的一种重要对照技术指标, 该关键词的识别为相关信息的检索提供很好的主题词参考。在以E指数作为指标的抽词列表中, 关键词“ intermediate modulus carbon fiber(中等模量碳纤维)” 虽然在文档中出现的频次仅为2, 但是由于它具有较高的E值, 因此该关键词在列表中处于第三位; 但是在以TF-IDF为指标的列表中仅出现在第24位。
(3)“ single wall carbon nanotube(单壁碳纳米管)” 是轻质材料技术领域发展的终极目标。虽然它的频次仅为3, 但是由于其中2次都是与“ Lightweight Material” 同段共现, 因此获得较高的E值, 所以出现在以E指数为统计指标的抽词列表的第4位, 作为优先考虑的核心技术词出现; 而在以TF-IDF为指标的抽词列表中仅出现在第18位。
(4)“ 30% lighter” 是碳纤维增强聚合物复合材料重量降低的重要指标, 该候选词的识别能够在一定程度上揭示碳纤维增强聚合物复合材料未来发展阶段的水平特征。在技术路线图中, 该关键词的频次虽然仅为3, 但是却因为较高的E值, 使其在以E指数为统计指标的列表中处于第13位, 而在以TF-IDF为指标的抽词列表中仅出现在第23位。
综上分析可知, 以E指数为统计指标的关键词抽取结果更能表达“ Lightweight Material” 技术领域未来技术发展特征, 为科技战略决策提供更多的情报支持。
一般情况下, 对关键词抽取结果的判定存在很大的主观性。即使对同一篇文档, 不同的人也会获得不同的抽取结果, 在现实应用中很难找到标准的关键词抽取评测语料。有研究者提出两种评价方法[21]:有参照时的标引结果评价方法和无参照时的标引结果评价方法, 本文关键词的抽取方法是抽取, 而非赋词标引, 因此可以直接使用文本主题内容的“ 替代品” , 即由人工标注的关键词作为评价的参照, 然后将待评价的关键词集合和人工标注关键词集合进行相似度匹配, 匹配程度反映了待评价的关键词集在表达文本主题内容时的精确程度。传统的模式匹配计算结果是:只有当两个字符串完全相等时, 结果为1; 否则为0。本文根据实际情况扩展了匹配的计算方法, 定义如下:
isMatch=1S1是S2的子集, 且S1至少包含两个单词
0其他 (5).
其中, isMatch为任意两个短语字符串S1和S2的匹配值。
在不考虑核心技术优先级的前提下, 本文采用Precision值、Recall值和F-measure值对抽取结果做一般性的自动评价[22], 评价的参照库为领域专家人工标注出10个核心技术关键词, 评价结果如表3所示:
为了能在不依赖于任何词典或词表的前提下更好地完成技术路线图中表征技术主题特征的关键词抽取工作, 本文提出一种基于词汇链的关键词抽取方法。该方法充分利用基于统计的自然语言处理、信息分析等研究方法, 从语义的角度提高关键词抽取的性能。实验表明, 采用E指数为统计指标构建的词汇链进行关键词抽取, 比采用TF-IDF统计指标构建的词汇链抽取在召回率和准确率方面均有所提高。
但是, 由于在利用C-value值进行领域关键词识别时没有考虑单词短语识别的问题, 因此诸如“ graphene(石墨烯)” 、“ Metamaterial(超材料)” 这样的单词没有识别出来, 一定程度上影响了关键词抽取的效果, 这将是下一步研究工作的重点。